Automatic Speech Recognition (ASR) systems typically yield output in lexical form. However, humans prefer a written form output. To bridge this gap, ASR systems usually employ Inverse Text Normalization (ITN). In previous works, Weighted Finite State Transducers (WFST) have been employed to do ITN. WFSTs are nicely suited to this task but their size and run-time costs can make deployment on embedded applications challenging. In this paper, we describe the development of an on-device ITN system that is streaming, lightweight & accurate. At the core of our system is a streaming transformer tagger, that tags lexical tokens from ASR. The tag informs which ITN category might be applied, if at all. Following that, we apply an ITN-category-specific WFST, only on the tagged text, to reliably perform the ITN conversion. We show that the proposed ITN solution performs equivalent to strong baselines, while being significantly smaller in size and retaining customization capabilities.
translated by 谷歌翻译
End-to-end formulation of automatic speech recognition (ASR) and speech translation (ST) makes it easy to use a single model for both multilingual ASR and many-to-many ST. In this paper, we propose streaming language-agnostic multilingual speech recognition and translation using neural transducers (LAMASSU). To enable multilingual text generation in LAMASSU, we conduct a systematic comparison between specified and unified prediction and joint networks. We leverage a language-agnostic multilingual encoder that substantially outperforms shared encoders. To enhance LAMASSU, we propose to feed target LID to encoders. We also apply connectionist temporal classification regularization to transducer training. Experimental results show that LAMASSU not only drastically reduces the model size but also outperforms monolingual ASR and bilingual ST models.
translated by 谷歌翻译
神经传感器已被广泛用于自动语音识别(ASR)。在本文中,我们将其介绍给流端到端语音翻译(ST),该语音旨在将音频信号直接转换为其他语言的文本。与执行ASR之后的级联ST相比,基于文本的机器翻译(MT),拟议的变压器传感器(TT)基于ST模型大大降低了推理潜伏期,利用语音信息并避免了从ASR到MT的错误传播。为了提高建模能力,我们提出了TT中联合网络的注意集合。此外,我们将基于TT的ST扩展到多语言ST,该ST同时生成多种语言的文本。大规模5万(k)小时的伪标记训练集的实验结果表明,基于TT的ST不仅显着减少了推理时间,而且还优于非流式级联ST进行英语 - 德语翻译。
translated by 谷歌翻译
本文介绍了流式扬声器的自动语音识别(SA-ASR)模型,该模型可以识别``即使多个人同时讲话,谁说'谁说什么”。我们的模型基于令牌级的序列化输出培训(T-SOT),该培训最近提议以流媒体方式转录多对词的演讲。为了进一步认识说话者的身份,我们提出了一个基于编码器的扬声器嵌入提取器,该扬声器可以估算每个公认的代币的说话者表示,不仅是从非重叠的语音中,而且还来自重叠的语音。所提出的扬声器嵌入为T-vector,与T-SOT ASR模型同步提取,从而可以通过低潜伏期的多词器转录来联合执行说话者识别(SID)或说话者诊断(SD)。我们通过使用LibrisPeechMix和Libralics Corpora评估了ASR和SID/SD联合任务的建议模型。所提出的模型比以前的流媒体模型获得了更高的准确性,并且与最新的离线SA-ASR模型显示出可比甚至更高的结果。
translated by 谷歌翻译
本文提出了代币级别的序列化输出训练(T-SOT),这是流式传输多对话者自动语音识别(ASR)的新型框架。与使用多个输出分支的现有流媒体多对话者ASR模型不同,T-SOT模型只有一个单个输出分支,该分支基于其排放时间生成多个扬声器的识别令牌(例如,单词,子字)。引入了指示“虚拟”输出通道更改的特殊令牌,以跟踪重叠的话语。与先前的流媒体ASR模型相比,T-SOT模型具有较低的推理成本和更简单的模型体系结构的优点。此外,在我们对LibrisPeechMix和Librics数据集的实验中,基于T-SOT的变压器换能器模型可实现最新的单词错误率,从而有很大的差距。对于非重叠的语音,T-SOT模型在精度和计算成本方面与单调的ASR模型相提并论,为单个单词和多对话者方案部署一个模型打开了大门。
translated by 谷歌翻译
在这项工作中,我们开发了新的自学习技术,具有基于注意的序列 - 序列(SEQ2Seq)模型,用于自动语音识别(ASR)。对于未筛选的语音数据,ASR系统的假设必须用作标签。然而,不完美的ASR结果使得无监督的学习难以始终如一地提高识别性能,特别是在多个强大的教师模型不可用的情况下。与传统的无监督学习方法相比,我们采用\ emph {多任务学习}(MTL)框架,其中$ N $最佳ASR假设用作每个任务的标签。通过MTL框架更新SEQ2Seq网络,以查找可以涵盖多个假设的公共表示。通过这样做,可以缓解\ emph {硬决策}错误的效果。我们首先通过在美国和英国英语演讲之间通过ASR实验证明我们的自学方法的有效性。我们的实验结果表明,与仅与美国英语数据培训的基线模型相比,我们的方法可以将英国语音数据上的WER减少14.55 \%至10.36 \%。此外,我们研究了我们提出的方法在联邦学习情景中的效果。
translated by 谷歌翻译
端到端(E2E)模型的仅文本适应仍然是自动语音识别(ASR)的具有挑战性的任务。基于语言模型(LM)基于融合的方法需要在推理过程中额外的外部LM,从而大大增加了计算成本。为了克服这一点,我们建议使用仅文本数据的E2E模型的内部LM适应(ILMA)。经过音频转录对训练,E2E模型隐含地学习了一个内部LM,该LM表征令牌序列概率,该序列概率在零零贡献后由E2E模型输出近似。在ILMA期间,我们对内部LM微调,即不包括编码器的E2E组件,以最大程度地减少跨熵损失。为了使ILMA有效,除了标准E2E损失外,必须使用内部LM损失来训练E2E模型。此外,我们建议通过最大程度地减少适应性和非适应性内部LMS的输出分布之间的kullback-leibler差异来使ILMA正规化。当我们仅更新关节网络的最后一个线性层时,ILMA是最有效的。 ILMA可以在不增加运行时计算成本的情况下对E2E模型进行快速的文本适应。 ILMA通过经过30k训练的变压器传感器模型进行了实验,可从非适应性基线实现高达34.9%的相对单词错误率。
translated by 谷歌翻译
传入/传出车辆的记录是根本原因分析的关键信息,以打击各种敏感组织中的安全违规事件。 RFID标记会阻碍物流和技术方面的车辆跟踪解决方案的可扩展性。例如,要求标记为RFID的每个传入车辆(部门或私人)是严重的限制,并且与RFID一起检测异常车辆运动的视频分析是不平凡的。我们利用公开可用的计算机视觉算法实现,使用有限状态机形式主义开发可解释的车辆跟踪算法。国家机器将用于状态转换的级联对象检测和光学特征识别(OCR)模型中的输入。我们从系统部署站点中评估了75个285辆车的视频片段中提出的方法。我们观察到检测率受速度和车辆类型的影响最大。当车辆运动仅限于在检查点类似于RFID标记的检查点时,将达到最高的检测率。我们进一步分析了700个对Live DATA的车辆跟踪预测,并确定大多数车辆数量预测误差是由于无法辨认的文本,图像布鲁尔,文本遮挡,文本遮挡和vecab外字母引起的。为了进行系统部署和性能增强,我们希望我们正在进行的系统监控能够提供证据,以在安全检查点上建立更高的车辆通知SOP,并将已部署的计算机视觉模型和状态模型的微调驱动为建立拟议的方法作为RFID标记的有希望的替代方法。
translated by 谷歌翻译
印度车辆板在尺寸,字体,脚本和形状方面的种类繁多。因此,自动数板识别(ANPR)解决方案的开发是具有挑战性的,因此需要一个多样化的数据集作为示例集合。但是,缺少印度情景的全面数据集,从而阻碍了在公开可用和可重现的ANPR解决方案方面的进展。许多国家已经投入了努力,为中国和面向应用程序的车牌(AOLP)数据集开发诸如中国城市停车数据集(CCPD)等全面的ANPR数据集为我们提供了努力。在这项工作中,我们发布了一个扩展的数据集,该数据集目前由1.5K图像组成,以及可扩展且可重复的程序,以增强该数据集以开发印度条件的ANPR解决方案。我们利用此数据集探索了印度场景的端到端(E2E)ANPR体系结构,该架构最初是根据CCPD数据集为中国车辆号码板识别的。当我们为数据集定制体系结构时,我们遇到了见解,我们在本文中讨论了这一点。我们报告了CCPD作者提供的模型直接可重复使用性的障碍,因为印度数字板的极端多样性以及相对于CCPD数据集的分布差异。在将印度数据集的特性与中国数据集对齐后,在LP检测中观察到了42.86%的改善。在这项工作中,我们还将E2E数板检测模型的性能与Yolov5模型进行了比较,并在可可数据集上进行了预训练,并在印度车辆图像上进行了微调。鉴于用于微调检测模块和Yolov5的数量印度车辆图像是相同的,我们得出的结论是,基于COCO数据集而不是CCPD数据集开发针对印度条件的ANPR解决方案更有效。
translated by 谷歌翻译
语言模型(LMS)显着提高端到端模型(E2E)模型在训练过程中很少见的单词的识别准确性,当时在浅融合或重新恢复设置中。在这项工作中,我们介绍了LMS在判别培训框架中学习混合自动回旋传感器(HAT)模型的研究,以减轻有关使用LMS的训练与推理差距。对于浅融合设置,我们在假设生成和损失计算过程中都使用LMS,而LM感知的MWER训练模型可实现10 \%的相对改进,比用标准MWER在语音搜索测试集中培训的模型相对改进,其中包含稀有单词。对于重新设置,我们学会了一个小型神经模块,以数据依赖性方式产生串联的融合权重。该模型与常规MWER训练的模型相同,但无需清除融合重量。
translated by 谷歌翻译